本文提出了将语音分离和增强(SSE)集成到ESPNET工具包中的最新进展。与以前的ESPNET-SE工作相比,已经添加了许多功能,包括最近的最新语音增强模型,并具有各自的培训和评估食谱。重要的是,已经设计了一个新界面,以灵活地将语音增强前端与其他任务相结合,包括自动语音识别(ASR),语音翻译(ST)和口语理解(SLU)。为了展示这种集成,我们在精心设计的合成数据集上进行了实验,用于嘈杂的多通道ST和SLU任务,可以用作未来研究的基准语料库。除了这些新任务外,我们还使用Chime-4和WSJ0-2MIX进行基准多链和单渠道SE方法。结果表明,即使在ASR以外的任务,尤其是在多频道方案中,SE前端与后端任务的集成也是一个有希望的研究方向。该代码可在https://github.com/espnet/espnet上在线获得。 HuggingFace上发布了这项工作的另一个贡献的多通道ST和SLU数据集。
translated by 谷歌翻译
Automation of berthing maneuvers in shipping is a pressing issue as the berthing maneuver is one of the most stressful tasks seafarers undertake. Berthing control problems are often tackled via tracking a predefined trajectory or path. Maintaining a tracking error of zero under an uncertain environment is impossible; the tracking controller is nonetheless required to bring vessels close to desired berths. The tracking controller must prioritize the avoidance of tracking errors that may cause collisions with obstacles. This paper proposes a training method based on reinforcement learning for a trajectory tracking controller that reduces the probability of collisions with static obstacles. Via numerical simulations, we show that the proposed method reduces the probability of collisions during berthing maneuvers. Furthermore, this paper shows the tracking performance in a model experiment.
translated by 谷歌翻译
Computer vision applications have heavily relied on the linear combination of Lambertian diffuse and microfacet specular reflection models for representing reflected radiance, which turns out to be physically incompatible and limited in applicability. In this paper, we derive a novel analytical reflectance model, which we refer to as Fresnel Microfacet BRDF model, that is physically accurate and generalizes to various real-world surfaces. Our key idea is to model the Fresnel reflection and transmission of the surface microgeometry with a collection of oriented mirror facets, both for body and surface reflections. We carefully derive the Fresnel reflection and transmission for each microfacet as well as the light transport between them in the subsurface. This physically-grounded modeling also allows us to express the polarimetric behavior of reflected light in addition to its radiometric behavior. That is, FMBRDF unifies not only body and surface reflections but also light reflection in radiometry and polarization and represents them in a single model. Experimental results demonstrate its effectiveness in accuracy, expressive power, and image-based estimation.
translated by 谷歌翻译
在本文中,我们为视觉域提出了一个新的神经体系结构块,该区域称为区域和本地混合(MRL),其目的是有效,有效地混合提供的输入特征。我们将输入特征混合任务分叉为区域和本地规模的混合。为了实现有效的混合,我们利用自我注意力提供的域范围内的接收场,用于局部尺度混合的区域尺度混合和卷积内核。更具体地说,我们提出的方法将与定义区域内的本地特征相关联的区域特征,然后是局部规模的特征,由区域特征增强。实验表明,这种自我注意力和卷积的杂交带来了能力提高,概括(右感应偏见)和效率。在类似的网络设置下,MRL的表现优于其分类,对象检测和细分任务的同等。我们还表明,基于MRL的网络体系结构可实现H&E组织学数据集的最新性能。我们在Kumar,ConSEP和CPM-17数据集中获得了0.843、0.855和0.892的骰子,同时通过合并了MRL框架所提供的多功能性,通过合并诸如小组卷积之类的层来改善数据集特异性通用化。
translated by 谷歌翻译
随着姿势估计和图形卷积网络的进步,基于骨架的两人互动识别一直在越来越多的关注。尽管准确性逐渐提高,但计算复杂性的提高使其在现实环境中更不切实际。由于常规方法不能完全代表体内关节之间的关系,因此仍然存在准确性改善的空间。在本文中,我们提出了一个轻巧的模型,以准确识别两人的交互。除了结合了中间融合的体系结构外,我们还引入了一种分解卷积技术,以减少模型的重量参数。我们还引入了一个网络流,该网络说明体内关节之间的相对距离变化以提高准确性。使用两个大规模数据集NTU RGB+D 60和120的实验表明,与常规方法相比,我们的方法同时达到了最高准确性和相对较低的计算复杂性。
translated by 谷歌翻译
视频中的人类对象相互作用(HOI)识别对于分析人类活动很重要。在现实世界中,大多数关注视觉特征的工作通常都会受到阻塞。当HOI中有多个人和物体涉及时,这种问题将更加复杂。考虑到诸如人类姿势和物体位置之类的几何特征提供有意义的信息来了解HOI,我们认为将视觉和几何特征的好处结合在HOI识别中,并提出了一个新颖的两级几何形状特征信息信息图形卷积(2G) -GCN)。几何级图模拟了人类和对象的几何特征之间的相互依赖性,而融合级别的图将它们与人类和对象的视觉特征融合在一起。为了证明我们方法在挑战性场景中的新颖性和有效性,我们提出了一个新的多人HOI数据集(Mphoi-72)。关于Mphoi-72(多人HOI),CAD-1220(单人HOI)和双人动作(双手HOI)数据集的广泛实验证明了我们的表现与最先进的表现相比。
translated by 谷歌翻译
自适应共振理论(ART)被认为是实现持续学习的有效方法,这要归功于其处理可塑性稳定性困境的能力。但是,通常,基于艺术的算法的聚类性能很大程度上取决于相似性阈值的规范,即警惕参数,该参数是数据依赖性和手工指定的。本文提出了一种基于艺术的拓扑聚类算法,其机制自动估计数据点分布的相似性阈值。此外,为了改善信息提取性能,通过向所提出的算法引入层次结构,提出了一种能够连续学习的分裂层次聚类算法。实验结果表明,所提出的算法具有与最近提供的最先进的层次聚类算法相当的高聚类性能。
translated by 谷歌翻译
我们提出了一种依赖于大约解决最小化问题的orcacles的马鞍点优化方法。我们在强凸凹面上分析其收敛性,并向全球最大马鞍点显示线性趋同。根据收敛分析,我们开发了一种适应学习率的启发式方法。显示使用(1 + 1)-cma-es作为最小化Oracle的开发方法的实施方式,即普通话-CMA-es,优于几种现有的测试问题方法。数值评估证实了理论会聚速率的紧密性以及学习率适应机制的效率。作为实际问题的一个例子,建议的优化方法应用于模型不确定性下的自动停泊控制问题,显示其在获得解决方案到不确定性的解决方案中的用处。
translated by 谷歌翻译
从知识图中发现精确且可解释的规则被认为是一个必要的挑战,可以改善许多下游任务的性能,甚至提供新的方法来了解一些自然语言处理主题。在本文中,我们提出了一种基于规则的知识图推理的基本理论,该理论基于图中的连接依赖性通过多种规则类型捕获。这是在知识图中首次考虑其中一些规则类型。基于这些规则类型,我们的理论可以为未知的三元组提供精确的解释。然后,我们通过所谓的统治模型来实现我们的理论。结果表明,我们的统治模型不仅提供了解释新三元组的精确规则,而且还可以在一个基准知识图完成任务上实现最先进的表演,并且在其他任务上具有竞争力。
translated by 谷歌翻译